Improving the Applicability of Ensemble Methods in Data Mining

نویسنده

  • Anneleen VAN ASSCHE
چکیده

Data mining is concerned with applying techniques which automatically induce new patterns or knowledge from large data. Typically these patterns are expressed as a descriptive or predictive model. In this work we focus on predictive models which aim to predict a certain characteristic of the data in terms of other known characteristics. Usually one such model is built to perform the task of prediction. Ensemble methods, however, construct a set of different predictive models whose individual predictions are combined in some manner. Ensemble methods have become very popular as they are able to significantly increase the predictive accuracy. On the other hand, they also come with some disadvantages. As they involve learning a set of models, they are clearly less efficient (both concerning time and space) and moreover the resulting combined ensemble becomes much less interpretable. This dissertation describes several techniques which remedy certain drawbacks of ensembles. Inductive Logic Programming (ILP) is a data mining technique based on first order logic, concerned with learning from relational data. It exhibits a high expressivity, allowing ILP to learn concepts that cannot be learnt using less powerful data mining techniques. However, the space of all possible models is also very complex and learning a good model (and even more an ensemble) becomes an expensive task. This problem is approached by upgrading random forests to the first order case, reducing the space searched by the learning algorithm at each step in the learning process. As such, we are able to improve the accuracy of the model without the usual excessive time costs. In many learning settings, comprehensibility of the obtained model is essential. As ensembles no longer exhibit this characteristic, we propose an algorithm to derive an interpretable model from an ensemble of decision trees. The approach builds a new decision tree based on the class probability predictions of the ensemble. Hence, we aim to obtain a model which approximates the predictions made by the ensemble meanwhile being able to explain its predictions. Finally, we focus on learning from statistics. In this learning setting, the learning algorithm is provided only with statistics of the data rather than with the individual data instances. This makes this learning setting hard for applying ensemble methods such as Bagging, Boosting and Random Forests, as they need direct access to the individual examples in order to construct the different base models of the ensemble. We propose an algorithm that simulates bootstrapping (used by Bagging and Random Forests) by sampling the statistics instead of the data and analyze this method for Bagging. By extensive experimental evaluation of the different techniques, we show that each contributes to the applicability of ensemble methods in a particular domain of knowledge discovery. Beknopte samenvatting Datamining is het automatisch zoeken naar impliciete patronen in grote verzamelingen gegevens. De patronen die daarbij gezocht worden kunnen predictieve of descriptieve patronen zijn naargelang het doel van het dataminingproces. In dit werk concentreren we ons op het leren van predictieve modellen. Deze hebben als doel een bepaalde eigenschap van de data te voorspellen a.h.v. andere gekende eigenschappen. Normaalgezien wordt één enkel model gebouwd om deze taak uit te voeren. Ensemble-methodes, van hun kant, construeren een verzameling van modellen wiens predicties gecombineerd worden. Op die manier zijn ze in staat om de predictieve nauwkeurigheid te verhogen. Ze brengen echter ook enkele nadelen met zich mee: doordat ze een verzameling van modellen leren, zijn ze zowel minder tijdsals geheugenefficiënt, en bovendien is het resultaat ook beduidend minder interpreteerbaar. Deze tekst beschrijft technieken die enkele gebreken van ensembles verhelpen. Inductief Logisch Programmeren (ILP) is een dataminingtechniek, gebaseerd op eerste orde logica, die zich bezighoudt met het leren uit relationele gegevens. Doordat het een grote expressiviteit tentoonspreidt, is het in staat concepten te leren die onmogelijk geleerd kunnen worden met minder krachtige dataminingtechnieken. De zoekruimte is echter ook heel complex en het leren van een geschikt model (en in nog sterkere mate een ensemble) wordt een dure taak. Dit probleem wordt benaderd door het opwaarderen van Random Forests naar het eerste orde geval, daarbij de zoekruimte reducerend in elke stap van het leerproces. Op die manier is het mogelijk de predictieve nauwkeurigheid van een eerste orde model te verbeteren zonder de gebruikelijke buitensporige kost. In vele leeromgevingen is de verstaanbaarheid van het geleerde model van essentieel belang. Aangezien ensembles deze eigenschap kwijt zijn, stellen we een algoritme voor om een interpreteerbaar model af te leiden uit een ensemble van beslissingsbomen. Deze methode construeert een beslissingsboom gebaseerd op de klassekansvoorspellingen gemaakt door het ensemble. Op deze wijze verkrijgen we een model dat de voorspellingen van het ensemble gaat benaderen en tegelijkertijd ook in staat is om zijn voorspellingen te verklaren. Tenslotte hebben we ons geconcentreerd op het leren uit statistieken. In deze leeromgeving is het leeralgoritme enkel voorzien van statistieken van de gegevens i.p.v. de individuele leervoorbeelden zelf. Dit maakt het moeilijk om ensemble-methodes, zoals Bagging, Boosting of Random Forests, in deze omgeving toe te passen aangezien ze directe toegang tot de individuele leervoorbeelden nodig hebben om de verschillende basismodellen van het ensemble te construeren. In deze context stellen we een algoritme voor dat bootstrapping (gebruikt door zowel Bagging als Random Forests) simuleert door het bemonsteren van de statistieken i.p.v. de eigenlijke data. Aan de hand van een uitgebreide experimentele evaluatie van deze verschillende technieken wordt aangetoond dat ze elk bijdragen aan de toepasbaarheid van ensembles in een specifiek domein van kennisontdekking.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Ensemble of M5 Model Tree Based Modelling of Sodium Adsorption Ratio

This work reports the results of four ensemble approaches with the M5 model tree as the base regression model to anticipate Sodium Adsorption Ratio (SAR). Ensemble methods that combine the output of multiple regression models have been found to be more accurate than any of the individual models making up the ensemble. In this study additive boosting, bagging, rotation forest and random subspace...

متن کامل

The ensemble clustering with maximize diversity using evolutionary optimization algorithms

Data clustering is one of the main steps in data mining, which is responsible for exploring hidden patterns in non-tagged data. Due to the complexity of the problem and the weakness of the basic clustering methods, most studies today are guided by clustering ensemble methods. Diversity in primary results is one of the most important factors that can affect the quality of the final results. Also...

متن کامل

The prediction of lymphedema via the combination of the selected data mining algorithms

Background: Breast cancer is the second leading cause of cancer death in women, after lung cancer. Due to the importance of predicting this disease, the use of data mining methods in medical research is more significant than before. Data mining algorithms can be a great help in preventing the development of lymphedema in patients. The aim Of this study was to create a diagnosis system that can ...

متن کامل

A Novel Ensemble Approach for Anomaly Detection in Wireless Sensor Networks Using Time-overlapped Sliding Windows

One of the most important issues concerning the sensor data in the Wireless Sensor Networks (WSNs) is the unexpected data which are acquired from the sensors. Today, there are numerous approaches for detecting anomalies in the WSNs, most of which are based on machine learning methods. In this research, we present a heuristic method based on the concept of “ensemble of classifiers” of data minin...

متن کامل

Credit scoring in banks and financial institutions via data mining techniques: A literature review

This paper presents a comprehensive review of the works done, during the 2000–2012, in the application of data mining techniques in Credit scoring. Yet there isn’t any literature in the field of data mining applications in credit scoring. Using a novel research approach, this paper investigates academic and systematic literature review and includes all of the journals in the Science direct onli...

متن کامل

Combination of Ensemble Data Mining Methods for Detecting Credit Card Fraud Transactions

As we know, credit cards speed up and make life easier for all citizens and bank customers. They can use it anytime and anyplace according to their personal needs, instantly and quickly and without hassle, without worrying about carrying a lot of cash and more security than having liquidity. Together, these factors make credit cards one of the most popular forms of online banking. This has led ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008